OcrV1, Main, Exploration, bibRecord, 000C18

Learning Visual Shape Lexicon for Document Image Content Recognition

Identifieur interne : 000C18 ( Main/Exploration ); précédent : 000C17; suivant : 000C19

Learning Visual Shape Lexicon for Document Image Content Recognition

Auteurs : Guangyu Zhu [États-Unis] ; Xiaodong Yu [États-Unis] ; Yi Li [États-Unis] ; David Doermann [États-Unis]

Source :

Lecture Notes in Computer Science [ 0302-9743 ] ; 2008.

RBID : ISTEX:000EA72B875137D2E35868AFB5C5FCB5D7A54937

Abstract

Abstract: Developing effective content recognition methods for diverse imagery continues to challenge computer vision researchers. We present a new approach for document image content categorization using a lexicon of shape features. Each lexical word corresponds to a scale and rotation invariant shape feature that is generic enough to be detected repeatably and segmentation free. We learn a concise, structurally indexed shape lexicon from training by clustering and partitioning feature types through graph cuts. We demonstrate our approach on two challenging document image content recognition problems: 1) The classification of 4,500 Web images crawled from Google Image Search into three content categories — pure image, image with text, and document image, and 2) Language identification of 8 languages (Arabic, Chinese, English, Hindi, Japanese, Korean, Russian, and Thai) on a 1,512 complex document image database composed of mixed machine printed text and handwriting. Our approach is capable to handle high intra-class variability and shows results that exceed other state-of-the-art approaches, allowing it to be used as a content recognizer in image indexing and retrieval systems.

Url:

https://api.istex.fr/document/000EA72B875137D2E35868AFB5C5FCB5D7A54937/fulltext/pdf

DOI: 10.1007/978-3-540-88688-4_55

Affiliations:

Links toward previous steps (curation, corpus...)

to stream Istex, to step Corpus: 000C96
to stream Istex, to step Curation: 000C73
to stream Istex, to step Checkpoint: 000685
to stream Main, to step Merge: 000C30
to stream Main, to step Curation: 000C18

Le document en format XML

<record><TEI wicri:istexFullTextTei="biblStruct"><teiHeader><fileDesc><titleStmt><title xml:lang="en">Learning Visual Shape Lexicon for Document Image Content Recognition</title>
<author><name sortKey="Zhu, Guangyu" sort="Zhu, Guangyu" uniqKey="Zhu G" first="Guangyu" last="Zhu">Guangyu Zhu</name>
</author>
<author><name sortKey="Yu, Xiaodong" sort="Yu, Xiaodong" uniqKey="Yu X" first="Xiaodong" last="Yu">Xiaodong Yu</name>
</author>
<author><name sortKey="Li, Yi" sort="Li, Yi" uniqKey="Li Y" first="Yi" last="Li">Yi Li</name>
</author>
<author><name sortKey="Doermann, David" sort="Doermann, David" uniqKey="Doermann D" first="David" last="Doermann">David Doermann</name>
<affiliation><country>États-Unis</country>
<placeName><settlement type="city">College Park (Maryland)</settlement>
<region type="state">Maryland</region>
</placeName>
<orgName type="university" n="3">Université du Maryland</orgName>
</affiliation>
</author>
</titleStmt>
<publicationStmt><idno type="wicri:source">ISTEX</idno>
<idno type="RBID">ISTEX:000EA72B875137D2E35868AFB5C5FCB5D7A54937</idno>
<date when="2008" year="2008">2008</date>
<idno type="doi">10.1007/978-3-540-88688-4_55</idno>
<idno type="url">https://api.istex.fr/document/000EA72B875137D2E35868AFB5C5FCB5D7A54937/fulltext/pdf</idno>
<idno type="wicri:Area/Istex/Corpus">000C96</idno>
<idno type="wicri:Area/Istex/Curation">000C73</idno>
<idno type="wicri:Area/Istex/Checkpoint">000685</idno>
<idno type="wicri:doubleKey">0302-9743:2008:Zhu G:learning:visual:shape</idno>
<idno type="wicri:Area/Main/Merge">000C30</idno>
<idno type="wicri:Area/Main/Curation">000C18</idno>
<idno type="wicri:Area/Main/Exploration">000C18</idno>
</publicationStmt>
<sourceDesc><biblStruct><analytic><title level="a" type="main" xml:lang="en">Learning Visual Shape Lexicon for Document Image Content Recognition</title>
<author><name sortKey="Zhu, Guangyu" sort="Zhu, Guangyu" uniqKey="Zhu G" first="Guangyu" last="Zhu">Guangyu Zhu</name>
<affiliation wicri:level="4"><country xml:lang="fr">États-Unis</country>
<wicri:regionArea>University of Maryland, MD 20742, College Park</wicri:regionArea>
<orgName type="university">Université du Maryland</orgName>
<placeName><settlement type="city">College Park (Maryland)</settlement>
<region type="state">Maryland</region>
</placeName>
</affiliation>
</author>
<author><name sortKey="Yu, Xiaodong" sort="Yu, Xiaodong" uniqKey="Yu X" first="Xiaodong" last="Yu">Xiaodong Yu</name>
<affiliation wicri:level="4"><country xml:lang="fr">États-Unis</country>
<wicri:regionArea>University of Maryland, MD 20742, College Park</wicri:regionArea>
<orgName type="university">Université du Maryland</orgName>
<placeName><settlement type="city">College Park (Maryland)</settlement>
<region type="state">Maryland</region>
</placeName>
</affiliation>
</author>
<author><name sortKey="Li, Yi" sort="Li, Yi" uniqKey="Li Y" first="Yi" last="Li">Yi Li</name>
<affiliation wicri:level="4"><country xml:lang="fr">États-Unis</country>
<wicri:regionArea>University of Maryland, MD 20742, College Park</wicri:regionArea>
<orgName type="university">Université du Maryland</orgName>
<placeName><settlement type="city">College Park (Maryland)</settlement>
<region type="state">Maryland</region>
</placeName>
</affiliation>
</author>
<author><name sortKey="Doermann, David" sort="Doermann, David" uniqKey="Doermann D" first="David" last="Doermann">David Doermann</name>
<affiliation wicri:level="4"><country xml:lang="fr">États-Unis</country>
<wicri:regionArea>University of Maryland, MD 20742, College Park</wicri:regionArea>
<orgName type="university">Université du Maryland</orgName>
<placeName><settlement type="city">College Park (Maryland)</settlement>
<region type="state">Maryland</region>
</placeName>
<placeName><settlement type="city">College Park (Maryland)</settlement>
<region type="state">Maryland</region>
</placeName>
<orgName type="university" n="3">Université du Maryland</orgName>
</affiliation>
</author>
</analytic>
<monogr></monogr>
<series><title level="s">Lecture Notes in Computer Science</title>
<imprint><date>2008</date>
</imprint>
<idno type="ISSN">0302-9743</idno>
<idno type="eISSN">1611-3349</idno>
<idno type="ISSN">0302-9743</idno>
</series>
<idno type="istex">000EA72B875137D2E35868AFB5C5FCB5D7A54937</idno>
<idno type="DOI">10.1007/978-3-540-88688-4_55</idno>
<idno type="ChapterID">55</idno>
<idno type="ChapterID">Chap55</idno>
</biblStruct>
</sourceDesc>
<seriesStmt><idno type="ISSN">0302-9743</idno>
</seriesStmt>
</fileDesc>
<profileDesc><textClass></textClass>
<langUsage><language ident="en">en</language>
</langUsage>
</profileDesc>
</teiHeader>
<front><div type="abstract" xml:lang="en">Abstract: Developing effective content recognition methods for diverse imagery continues to challenge computer vision researchers. We present a new approach for document image content categorization using a lexicon of shape features. Each lexical word corresponds to a scale and rotation invariant shape feature that is generic enough to be detected repeatably and segmentation free. We learn a concise, structurally indexed shape lexicon from training by clustering and partitioning feature types through graph cuts. We demonstrate our approach on two challenging document image content recognition problems: 1) The classification of 4,500 Web images crawled from Google Image Search into three content categories — pure image, image with text, and document image, and 2) Language identification of 8 languages (Arabic, Chinese, English, Hindi, Japanese, Korean, Russian, and Thai) on a 1,512 complex document image database composed of mixed machine printed text and handwriting. Our approach is capable to handle high intra-class variability and shows results that exceed other state-of-the-art approaches, allowing it to be used as a content recognizer in image indexing and retrieval systems.</div>
</front>
</TEI>
<affiliations><list><country><li>États-Unis</li>
</country>
<region><li>Maryland</li>
</region>
<settlement><li>College Park (Maryland)</li>
</settlement>
<orgName><li>Université du Maryland</li>
</orgName>
</list>
<tree><country name="États-Unis"><region name="Maryland"><name sortKey="Zhu, Guangyu" sort="Zhu, Guangyu" uniqKey="Zhu G" first="Guangyu" last="Zhu">Guangyu Zhu</name>
</region>
<name sortKey="Doermann, David" sort="Doermann, David" uniqKey="Doermann D" first="David" last="Doermann">David Doermann</name>
<name sortKey="Li, Yi" sort="Li, Yi" uniqKey="Li Y" first="Yi" last="Li">Yi Li</name>
<name sortKey="Yu, Xiaodong" sort="Yu, Xiaodong" uniqKey="Yu X" first="Xiaodong" last="Yu">Xiaodong Yu</name>
</country>
</tree>
</affiliations>
</record>

Pour manipuler ce document sous Unix (Dilib)

EXPLOR_STEP=$WICRI_ROOT/Ticri/CIDE/explor/OcrV1/Data/Main/Exploration

HfdSelect -h $EXPLOR_STEP/biblio.hfd -nk 000C18 | SxmlIndent | more

HfdSelect -h $EXPLOR_AREA/Data/Main/Exploration/biblio.hfd -nk 000C18 | SxmlIndent | more

Pour mettre un lien sur cette page dans le réseau Wicri

{{Explor lien
   |wiki=    Ticri/CIDE
   |area=    OcrV1
   |flux=    Main
   |étape=   Exploration
   |type=    RBID
   |clé=     ISTEX:000EA72B875137D2E35868AFB5C5FCB5D7A54937
   |texte=   Learning Visual Shape Lexicon for Document Image Content Recognition
}}

This area was generated with Dilib version V0.6.32.
Data generation: Sat Nov 11 16:53:45 2017. Site generation: Mon Mar 11 23:15:16 2024

	Serveur d'exploration sur l'OCR
	Attention, ce site est en cours de développement ! Attention, site généré par des moyens informatiques à partir de corpus bruts. Les informations ne sont donc pas validées.

Serveur d'exploration sur l'OCR

Learning Visual Shape Lexicon for Document Image Content Recognition

Learning Visual Shape Lexicon for Document Image Content Recognition

Source :

Abstract

Links toward previous steps (curation, corpus...)

Le document en format XML

Pour manipuler ce document sous Unix (Dilib)

Pour mettre un lien sur cette page dans le réseau Wicri